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摘要 变 点 分 析 法 (change point analysis, CPA) 近 些 年 才 引 入 心理 与 教育 测量 学 ， 相 较 于 传统 
方法 ，CPA 不 仅 可 以 侦查 异常 作答 被 试 ， 还 能 自动 精确 地 定位 变 点 位 置 ， 高 效 清洗 作答 数 
据 。 其 原理 在 于 : 判断 作答 序列 中 是 否 存在 可 将 该 序列 划分 为 具有 不 同 统计 学 属性 两 部 分 的 
点 ( 即 变 点 )， 并 且 需 使 用 被 试 拟 合 统计 量 (person-fit statistic, PFS) 来 量化 两 个 子 序列 之 间 的 差 
异 。 未 来 可 将 单 变 点 分 析 拓 展 至 多 变 点 , 结合 反应 时 等 信息 ,构建 非 参 数 化 指标 以 及 将 现 有 
指标 拓展 至 多 级 计 分 或 多 维 测验 ， 以 提高 CPA 的 适用 广度 及 效力 。 

关键 词 异常 反应 ， 变 点 分 析 法 ; 累积 和 法 ， 被 试 拟 合 统计 旱 


在 心理 测验 中 我 们 常常 可 以 看 到 这 样 的 现象 : 某 被 试 在 测验 初期 认真 作答 , 但 到 后 期 失 
去 了 答题 的 兴致 ,于 是 便 随 意 作 答 、 乱 选 一 通 。 也 会 在 教育 测验 中 注意 到 这 样 的 情况 : 某 考 
生 在 作答 过 程 中 发 觉 剩 余 考 试 时 间 不 足 ， 而 后 急匆匆 地 答题 ， 顾 不 上 仔细 审题 ， 导 致 许多 本 
来 能 答对 的 题目 却 都 答 错 了 。 研 究 者 将 此 类 现象 统称 为 异常 反应 (aberrant response)。 心 理 与 
教育 测验 中 经 常会 出 现 各 式 各 样 的 异常 反应 ， 主 要 包括 : 热身 效应 (warm-up effect) IMENE 
答 (speededness)、 疲 劳 (tiredness)、 注 意 力 不 集中 (loss of concentration) 和 对 题目 的 预 了 解 (item 
preknowledge) 等 (Sinharay, 2017b)。 以 “对 题目 的 预 了 解 ”的 现象 为 例 , 如 果 被 试 在 考试 前 已 经 
获取 了 题目 的 信息 ， 那 么 作答 会 更 加 得 心 应 手 (Zhang, 2014)。 因 此 ， 异 常 反 应 的 存在 会 “ 污 
染 ” 作 答 数 据 ， 如 果 数 据 “ 受 污染 ”程度 严重 ， 会 使 参数 估计 精度 大 受 影响 并 降低 测验 效 度 
(Shao，2016)。 以 往 调查 表明 ， 在 心理 与 教育 测验 中 存在 异常 反应 的 被 试 占据 了 相当 一 部 分 
比例 。 例 如 ，Meade(2016) 发 现 测验 当中 存在 粗心 作答 (careless response) 行 为 的 被 试 一 般 约 占 
总 人 数 的 10%。 如 果 在 研究 中 直接 使 用 存在 异常 反应 的 数据 进行 分 析 ， 势 必 会 影响 研究 结 
论 的 可 靠 性 和 可 推广 度 。 当 前 对 于 异常 反应 的 侦查 方法 主要 有 两 种 : 第 一 种 是 人 工 逐 一 检查 
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数据 ， 但 是 这 种 方法 需要 测验 管理 者 亲 力 亲 为 对 数据 逐个 审查 ， 较 为 费时 费力 ， 而 且 由 于 这 
种 方法 具有 很 大 的 主观 性 , 所 以 侦查 的 准确 性 也 存疑 ; 第 二 种 方法 是 利用 统计 学 手段 对 数据 
进行 快速 侦 测 ， 这 种 方法 效率 很 高 ， 可 由 计算 机 程序 独立 执行 ， 更 具 客观 性 ， 但 是 侦 测 的 准 
确 度 依赖 于 统计 学 手段 的 合理 性 。 因此 , 开发 并 完善 有 效 的 异常 反应 侦 测 统计 学 方法 便 具 有 
重要 的 理论 与 实际 意义 。 

异常 反应 数据 的 侦查 是 统计 过 程控 制 (statistical process control, SPC) 中 的 一 种 ， 传 统 上 


SPC 采用 的 是 累积 和 法 (cumulative summation, CUSUM). CUSUM 通过 构造 被 试 拟 合 统 计量 
(person-fit statistic, PFS) 实 现 对 异常 反应 的 侦 测 。 基 于 CUSUM 的 PFS 通过 依 题目 顺序 将 各 


题 上 观察 与 期 望 得 分 间 的 残 差 累积 求 和 得 到 , 当 其 超出 一 定 临界 值 , 则 意味 着 失 拟 (Sinharay, 
2016), 即 认为 存在 异常 反应 。 这 种 方法 最 大 的 优点 在 于 可 以 输出 图 像 , 具有 可 视 化 的 特性 ， 
对 整个 作答 序列 能 有 清晰 、 直 观 和 全 面 的 把 握 。 但 是 当 侦 测 任务 需要 确定 变 点 (change point) 
位 置 时 , 测验 和 人员 必须 亲自 检查 根据 被 试 的 作答 序列 生成 的 图 像 以 定位 变 点 。 然 而， 心理 与 
教育 测验 的 数据 由 动 加 成 百 上 千 名 被 试 的 作答 构成 ， 传 统 的 CUSUM 方法 因此 显得 捉 襟 见 
肘 了 。 新 一 代 的 异常 反应 侦查 方法 一 一 变 点 分 析 法 (change point analysis, CPA; Page, 1954) 应 
运 而 生 ， 它 可 以 克服 传统 方法 的 弱势 ， 更 适应 于 心理 与 教育 测验 的 环境 。 

CPA 是 目前 SPC 中 较为 流行 的 方法 ， 它 可 以 检测 由 一 系列 随机 变量 构成 的 序列 中 是 否 
存在 一 个 或 多 个 变 点 ， 并 确定 变 点 的 位 置 。 变 点 在 通俗 意义 上 是 指 “ 模 型 中 的 某 个 或 某 些 量 
HERA LZ A (RATT, 1991)。 在 变 点 前 后 ， 随 机 变量 赖 以 生成 的 模型 本 身 或 模型 参数 会 
发 生 改 变 (Sinharay, 2017b), 或 者 说 发 生 了 结构 性 的 变化 (structural change). CPA 最 早 用 于 生 
物 学 领域 ,其 研究 向 始 于 Page (1954) 在 Biometrika 上 发 表 的 一 篇 关于 连续 抽样 检验 的 文章 ， 


后 来 被 广泛 应 用 于 医学 (Aminikhanghahi & Cook, 2017; Kass-Hout et al., 2012; Nam, Aston, & 
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Johansen, 2012)、 环 境 气候 (Abahous et al., 2018; Suhaila & Yusop, 2018; Yu & Ruggieri, 2019), 
金融 (Allen, McAleer, Powell, & Singh, 2018; Thies & Molnár, 2018; Ye, Liu, & Miao, 2012) T. 
业 (Maleki, Bingham, & Zhang, 2016; Mortaji, Noorossana, & Bagherpour, 2015; Nigro, Pakzad, 
& Dorvash, 2014) 等 各 个 领域 。 而 在 近 些 年 才 引 入 心理 与 教育 测量 。 

CPA 可 以 用 于 侦查 心理 与 教育 测验 中 的 异常 反应 现象 , 异常 反应 的 被 试 在 作答 过 程 中 ， 
会 出 现 作答 表现 在 某 道 题 后 发 生 转 变 的 现象 ， 这 就 是 测量 学 意义 上 的 变 点 。CPA 的 优势 在 
F, 它 不 仅 可 以 鉴别 某 被 试 是 否 存在 异常 反应 , 还 能 检测 变 点 的 具体 位 置 (Yu & Cheng, 2019). 
因此 ， 在 数据 分 析 中 ， 该 方法 能 使 测验 人 员 对 被 试 的 异常 部 分 数据 单独 进行 清理 (Embretson 


& Reise, 2000; Shao, Li, & Cheng, 2016)， 而 无 需 将 该 被 试 的 所 有 数据 删除 ， 以 此 降低 异常 反 
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应 的 影响 ， 最 大 程度 保留 有 效 数 据 并 提升 参数 估计 精度 (Hong & Cheng, 2018; Patton, Cheng, 
Hong, & Diao, 2019; Yu & Cheng, 2019). 


无 论 是 传统 的 CUSUM 还 是 新 兴 的 CPA, 都 需要 通过 构造 PFS 的 方式 来 达到 侦查 目的 。 


在 心理 与 教育 测量 领域 ,CPA 构造 PFS 主要 依托 项 目 反应 理论 (item response theory, IRT)。 根 


据 美 国 《教育 和 心理 测验 标准 》(Standards for Educational and Psychological Testing) 的 4.10 
条 规定 : 当 IRT 模型 用 于 测验 开发 时 ， 应 当 提供 关于 模型 是 否 拟 合 的 证 据 。 而 PFS 可 以 量 
化 被 试 的 得 分 模式 与 IRT 模型 的 拟 合 程度 (Bradlow & Weiss, 2001)， 因 此 可 作为 《标准 》 所 
需 证 据 的 一 部 分 。 现 有 PFS 指标 可 以 分 为 两 类 : 参数 化 的 (parametricj) 和 非 参数 化 的 
(non-parametric)。 本 文 将 要 讨论 的 CUSUM 和 CPA 两 种 方法 的 PFS 都 是 参数 化 的 指标 ， 即 
基于 IRT 进行 构造 。 有 具体 使 用 方法 是 : 通过 将 PFS 与 其 在 某 一 显著 性 水 平 下 的 临界 值 进行 
比较 ， 以 鉴别 被 斌 是否 存在 异常 反应 。 

当前 ，CPA 的 研究 在 心理 与 教育 测量 领域 已 经 取得 了 一 些 进 展 。 研 究 表 明 : CPA BERT 
于 非 自 适应 测验 (传统 纸 笔 测验 )， 也 可 以 用 于 自 适应 测验 (如 计算 机 自 适 应 测验 )(Sinharay,， 
2016). Zhang (2014) 首 次 将 CPA 引入 教育 测验 ,在 计算 机 化 自 适 应 测验 (computerized adaptive 
testing, CAT) 的 环境 下 中 个 测 是 否 存 在 已 遭 泄 露 的 题目 。Shao, Li 和 Cheng (2016) 成 功 将 基于 
似 然 比 检验 的 CPA 运用 于 检测 被 试 加 速 作答 行为 ， 以 识别 被 试 的 能 力 值 是 否 存在 个 体内 
(intraindividual) 变 化 ， 并 找到 变化 的 发 生 位 置 。Shao (2016) 进 一 步 将 CPA 拓展 至 热身 效应 


(warm-up effect) 的 侦查 。Sinharay (2016) 归 纳 了 CPA 的 三 种 PFS 指标 ,我们 将 在 后 文 对 这 三 
种 PFS HET IAA. FEAL, MER CPA 用 于 探测 被 试 对 题目 的 预 了 解 现象 ， 并 讨论 了 CPA 在 
具体 应 用 中 的 各 项 细节 问题 (Sinharay, 2017a, 2017b, 2017c). Lee 和 von Davier (2013) 使 用 
CPA 技术 在 一 项 国际 语言 评估 测试 的 历年 平均 分 上 检测 出 了 异常 的 变动 ， 这 可 以 为 测验 管 
理 者 提供 测试 改革 的 依据 。 

本 文 将 首先 介绍 心理 与 教育 测量 中 常见 的 异常 反应 及 其 管理 模型 , 然后 详细 综述 以 往 研 
究 者 构造 的 基于 CPA 和 CUSUM 两 种 方法 的 PFS 及 其 临界 值 的 确定 方法 ， 并 阐述 CPA 和 
CUSUM 的 操作 流程 ， 之 后 综合 比较 两 种 方法 在 异常 反应 侦查 中 的 特点 、 优 劣 及 使 用 时 的 注 
意 事项 , 最 后 对 于 该 研究 领域 当前 存在 的 问题 进行 分 析 并 指明 未 来 的 研究 方向 。 通过 合理 运 
用 CPA， 心 理 与 教育 测量 学 工作 者 可 以 更 严谨 高 效 地 处 理 作答 数据 ， 提 高 研究 的 质量 ， 本 
文 还 在 前 人 的 研究 基础 之 上 提出 一 些 创新 的 观点 ， 帮 助 启发 后 续 研 究 者 的 思路 并 推动 CPA 
的 研究 进程 。 


2 异常 反应 模型 


常见 的 异常 反应 类 型 主要 包括 热身 效应 、 加 速 作答 、 疲 劳 、 注 意 力 不 集中 和 对 题目 的 预 
了 解 等 。 这 些 异 常 反 应 的 出 现 会 降低 测验 效 度 并 随 之 影响 研究 结论 的 可 靠 性 , 应 当 通 过 一 定 
的 技术 手段 准确 高 效 地 识别 它们 , 以 尽 可 能 减 小 异常 反应 对 于 测验 的 影响 。 本 节 主 要 以 测验 
中 最 为 常见 的 异常 反应 之 一 一 一 加 速 作 答 (speededness) 为 例 进行 论述 ， 着 重 介绍 加 速 作答 的 
管理 模型 。 加 速 作 答 模 型 可 方便 地 拓展 到 其 它 异 常 反应 的 建 模 中 ， 如 热身 效应 (Shao，2016) 
和 后 期 随机 作答 (Yu & Cheng,，2019) 等 。 建 模 研 究 能 使 人 们 深入 理解 异常 反应 的 内 在 机 第 
(Shao et al., 2016)， 这 对 侦 测 领域 的 意义 在 于 : 通过 加 深 对 异常 反应 机 制 的 理解 程度 ， 有 助 
于 开发 和 完善 异常 反应 侦查 的 新 方法 和 新 指标 。 
2.1 传统 IRT 模型 

在 介绍 异常 反应 模型 前 , 需要 先 了 解 传统 的 IRT 模型 。 传统 项 目 反 应 理论 模型 包括 正 态 
肩 形 模型 (the normal ogive model), Rasch 模型 和 logistic 模型 。 目 前 学 界 使 用 得 比较 多 的 是 
后 两 种 模型 ， 为 方便 讲解 ， 在 此 以 两 参数 的 logistic 模型 (2PL logistic model) 为 例 进行 介绍 
模型 可 以 表达 为 : 


=< 


` 


expla, (0 —b,)] 
1+exp[a,(6, -b1 


P,(0)= P(X, =1]8,a,,b,)= (1) 


其 中 ，X 是 被 试 ?在 上 的 作答 ，8 为 被 试 ; 的 能 力 参数 ，a AUD, 分 别 是 题目 的 区 分 度 和 难 


度 参 数 ，P (90) 为 被 斌 i 在 题目 i 上 答对 的 概率 。 
2. 2 加 速 作答 及 其 模型 

加 速 作答 (speededness; Evans & Reilly，1972) 是 指 发 生 在 速度 非 待 测量 构 念 的 限时 测验 
的 一 种 效应 。 被 试 在 测验 后 期 的 某 道 题 处 发 觉 作答 时 间 不 够 ， 迫 于 时 间 压 力 加 快 作答 速度 ， 
导致 其 作答 表现 持续 下 降 到 测验 结束 。 基 于 不 同 基本 假设 , 可 将 现 有 加 速 作答 模型 分 为 三 类 : 
混合 模型 (mixture model)、 组 合 模型 (hybrid model) 和 渐变 模型 (gradual change model). 
2.2.1 混合 模型 


为 减轻 测验 中 加 速 作 答 效 应 对 参数 估计 造成 的 影响 ，Bolt Cohen 和 Wollack (2002) 在 混 


合 Rasch 模型 (mixture Rasch model; Rost, 1990) 的 基础 之 上 对 加 速 作答 实施 建 模 , 该 模型 将 所 


有 被 试 分 成 两 个 类 别 : 加 速 和 非 加 速 ， 且 每 名 被 试 只 归属 于 其 中 一 类 。 在 每 个 类 里 ， 被 试 在 


各 题 上 的 答对 概率 都 可 写作 Rasch 模型 ( 即 公式 1 Pa = 1) 的 形式 ， 而 每 道 题 在 两 个 类 别 上 


分 别 具 有 不 同 难度 参数 。 通 过 对 题目 的 难度 参数 施加 一 系列 约束 , 以 实现 对 加 速 作答 的 管理 。 
例如 ， 测 验 初期 题目 (未 受 加 速 作答 影响 ) 在 加 速 和 非 加 速 类 上 的 难度 设置 为 相等 ， 而 对 于 后 
期 题目 (受到 加 速 作 答 影响 ), 加 速 类 上 的 难度 参数 比 非 加 速 类 的 大 , 作为 对 加 速 作答 的 惩罚 。 


该 模型 为 : 


0, -b, 
Ps =e O) 
ne 1+exp(6, —b,,) 


其 中 ，g 表示 类 别 ， 可 取 1 或 2( 代 表 加 速 或 非 加 速 类 )。 0, 为 在 类 别 g 中 的 被 试 i 的 能 力 参 
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， 是 题目 / 在 类 别 g 上 的 难度 参数 。 P;, 为 被 试 i 在 题目 j 上 的 答对 概率 。 该 模型 假定 


加 速 类 下 所 有 被 试 的 变 点 位 置 一 致 。 

由 于 被 试 在 测验 后 期 的 作答 易 受 加 速 作答 影响 (Oshima，1994)， 并 导致 数据 受 污染 。 因 
此 ，Bolt 等 (2002) 采 用 混合 Rasch 模型 来 修正 测验 后 期 题目 的 参数 估计 。 结 果 表明 : 该 模 
型 不 仅 可 改善 参数 估计 的 精度 ， 还 能 有 效 对 被 试 实施 分 类 。 此 后 ， 研 究 者 们 继续 深入 研究 


并 将 该 模型 陆续 拓展 为 其 它 形 式 ， 如 混合 两 参数 logistic 模型 (mixture 2PL logistic model; 


Bolt, Mroch, & Kim，2003)、 两 维 混 合 两 参数 logistic 模型 (two-dimensional mixture 2PL 
logistic model; De Boeck, Cho, & Wilson, 2011D) 和 混合 层级 模型 (mixture hierarchical model; 
Wang & Xu, 2015) 等 。 


2.2.1 组 合 模型 


Yamamoto 和 Everson (1997) 构 建 了 两 参数 组 合 模型 (2PL hybrid model), 用 于 拟 合 数据 并 
提高 加 速 作答 影响 下 的 参数 估计 精度 。 模 型 假设 加 速 作答 被 试 经 过 变 点 后 , 作答 策略 将 会 从 
深思 熟 虑 转变 为 随机 猜测 。 模 型 如 下 所 示 : 


> J e ste © 


j 1+exp| a, (0 —b,) 


让 


(0-b. 
a E E E E eee ee 
1+exp| a, (2 =b, )| 


有 两 个 类 别 , 而 是 根据 变 点 位 置 分 类 : 同一 类 别 下 所 有 被 试 的 变 点 位 置 相 同 , 不 同类 之 间 被 


试 的 变 点 位 置 相 异 。7ji* 是 指示 函数 (indicator function): 5 7j =0， 表 示 类 别 g 的 被 试 在 第 


T 


(8.-b. 
paeet, etme eE) ; ÁT HACK g 的 被 试 在 第 / 题 上 
1+exp| a, (6, -b,)| 


aaya) 
CIII 


存在 加 速 作答 ， 猜 对 概率 为 x, 


ilg ? 


数值 等 于 第 j 题 选项 数目 的 倒数 。 因 此 被 试 在 变 点 之 前 的 


题目 上 正常 作答 , 而 在 变 点 后 所 有 题 上 转变 为 随机 作答 ， 各 题 的 答对 概率 是 固定 数值 ， 这 是 
一 项 严格 的 假设 。 

Yamamoto 和 Everson (1997) 的 研究 表明 : 相 较 于 传统 的 IRT 模型 , 2PL 组 合 模型 能 有 效 
地 提升 被 试 和 题目 的 参数 估计 精度 。 并 且 ， 基 于 该 模型 特性 ，Yu 和 Cheng (2019) 在 模拟 研 
究 中 将 其 改 为 多 级 计 分 的 形式 ， 以 生成 由 于 不 专心 所 致 的 后 期 随机 作答 的 数据 。 
2.2.3 渐变 模型 

组 合 模型 认为 被 试 经 过 变 点 之 后 , 各 题 的 答对 概率 会 变 成 固定 数值 。 然 而， 此 处 介绍 的 
渐变 模型 对 变 点 后 答对 概率 的 改变 持 有 更 加 灵活 的 认识 一 一 该 模型 假设 被 试 在 变 点 后 各 题 
上 的 答对 概率 将 会 逐渐 下 降 。Wollack 和 Cohen (2004) 在 研究 中 首次 建立 了 渐变 模型 ， 目 的 


是 生成 加 速 作答 数据 。 此 后 ，Goegebeur De Boeck, Wollack, 和 Cohen (2008) 成 功 实现 了 模型 


的 数据 拟 合 和 参数 估计 。 两 参数 渐变 模型 (2PL gradual change model; Suh, Cho, & Wollack, 
2012) 为 : 


exp| a, (9 =, 中 


了 
irela aa] T i 


expla, (8, —b,)] 
”1+expla, (0 —b,)] 


N 
4 


是 传统 2PL 模型 。J 是 题目 总 数 。n(0<n<1) 描 述 被 试 i 在 测验 


中 开始 加 速 作答 的 位 置 ， 数 值 上 等 于 被 试 在 加 速 前 完成 的 题目 数量 占 总 题 数 的 比例 。 例 如 


n, = 0.8 表示 该 被 试 从 测验 的 80% 位 置 之 后 开始 加 速 作答 。4 是 加 速率 (speededness rate) 参 数 ， 


用 于 控制 答对 概率 PP 的 下 降 速 度 。4 越 大 ， 答 对 概率 下 降 得 越 快 。 假 设 某 测 验 共 100 题 ， 


两 名 被 试 能 力 9 相等 ，7 值 都 为 08， 即 两 人 都 在 测验 后 20 题 上 存在 加 速 作 答 ， 而 
1 -1 克 =3。 当 两 人 在 第 90 题 上 作答 时 ， 对 于 被 试 1， 答 对 概率 


0, -b, 
Py = exp [aw ( 1 990 )] * min(L[1— aul ~0.8)])' =0.9* 
” 1+expl doo (8, — Poo) | 100 


exp| av (A, ~ Dy )] 
1+ exp [ ao (0 — Dy, )] 


而 对 于 被 试 2， 答 对 概率 


_ exp| av (A, — boo )] 
1+ exp| av (0, — by )] 


exp| av (0, — by )] 
1+ exp| av (8, — Deg )] 


: 90 à 
* min(1, [1 一 (一 一 一 0.8)]) = 0.73 * 
(,[ Coo )]) 


2,90 


即 对 于 两 名 能 力 相等 且 变 点 位 置 一 致 的 被 试 而 言 , 由 于 4 取 值 差 异 导致 两 人 在 同一 题 上 的 答 


对 概率 相去 甚 远 : 被 试 1 在 第 90 题 上 的 答对 概率 是 正常 答对 概率 的 0.9, 而 被 试 2 的 答对 概 
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率 是 正常 答对 概率 的 0.73。 可 见 ，4 取 值 对 于 被 试 在 加 速 作答 部 分 的 答对 概率 影响 很 大 。 在 


(4) 式 中 ， 若 刀 =1 或 4=0， 意 味 着 被 试 ; 在 测验 中 不 存在 加 速 作 答 ， 此 时 式 子 变 成 传统 2PL 


模型 。 
Shao 等 人 (2016) 在 研究 中 使 用 2PL 渐变 模型 来 生成 加 速 作答 数据 ， 随 后 ，Shao (2016) 
在 该 模型 的 基础 上 略 作 改动 ， 构 建 了 热身 效应 (warm-up effect) 的 管理 模型 ， 公 式 为 : 


P Be a -ipi (5) 
1+exp| a, (0 -b,)| J 


热 吴 效应 是 指 发 生 在 测验 初期 的 一 种 效应 , 被 试 由 于 不 熟悉 测验 内 容 或 者 紧张 等 原因 导致 测 
验 初 期 的 作答 表现 会 低 于 他 的 实际 水 平 。 当 被 试 熟悉 测验 后 , 其 作答 水 平 将 会 恢复 正常 并 在 
此 后 保持 稳定 的 发 挥 。 式 中 ，6,(0< 5 <1) 描述 被 试 i 在 测验 何 处 摆脱 热身 效应 的 影响 ,数值 


上 等 于 测验 初期 存在 热身 效应 的 题目 数量 占 总 题 数 的 比例 。 例 如 ，6, = 0.2 表示 被 试 i 在 测 


验 的 20% 位 置 之 后 摆脱 热身 效应 ， 开 始 正常 作答 。 其 余 符 号 意义 与 (4) 式 基本 一 致 ， 不 再 歼 
述 。 
2. 3 异常 反应 模型 简 评 

本 节 以 心理 与 教育 测验 中 最 为 常见 异常 反应 之 一 一 一 加 速 作答 为 代表 , 详细 综述 了 异常 


反应 的 管理 模型 。 加 速 作答 各 模型 可 以 很 方便 地 拓展 到 其 它 异常 反应 的 建 模 中 , 如 后 期 随机 
作答 和 热身 效应 等 。 通过 对 模型 的 剖析 和 认识 ， 有 助 于 加 深 对 异常 反应 内 部 机 制 的 理解 ,从 
而 为 异常 反应 侦 测 新 方法 开发 夯实 理论 基础 。 就 加 速 作答 而 言 , 研究 者 们 基于 三 类 假设 ， 从 
不 同 角 度 建 立 了 三 种 模型 。 

混合 模型 把 所 有 被 试 划分 成 加 速 和 非 加 速 两 个 类 别 ,通过 对 两 类 上 的 题目 参数 设置 约束 
来 实现 对 加 速 作答 的 建 模 : 在 变 点 之 前 ， 两 类 的 参数 一 致 ， 而 在 变 点 后 ， 两 类 的 参数 相 异 。 
对 于 该 模型 而 言 , 所 有 加 速 作 答 被 试 的 变 点 位 置 都 是 一 样 的 。 组 合 模型 假设 加 速 作答 被 试 在 
经 过 变 点 之 后 ， 其 作答 策略 将 从 深思 熟 虑 转变 为 随机 猜测 ， 这 项 假设 十 分 严格 。 并 且 ， 该 模 
型 允许 被 试 有 不 同 的 变 点 位 置 。 而 最 后 介绍 的 渐变 模型 则 具有 更 加 灵活 的 视角 : 它 假设 经 过 
变 点 之 后 ， 被 试 的 答对 概率 会 逐渐 地 降低 。 从 这 一 点 上 ， 渐 变 模 型 相 较 于 其 它 两 个 模型 而 言 
会 更 加 符合 实际 情形 (Goegebeur et al., 2008; Suh et al., 2012): 如 果 被 试 在 测验 后 期 某 题 处 发 
党 剩余 时 间 不 足 , 便 会 加 快 做 题 速度 ， 并 随 着 剩余 时 间 越 来 越 短 ， 会 越 做 越 快 ， 导 致 他 在 每 
题 上 的 认 知 加 工 耗 时 越 来 越 少 ， 答 对 概率 也 越 来 越 低 。 在 渐变 模型 中 ， 有 一 个 关键 的 被 试 
参数 4 ， 它 表示 受 效应 影响 答对 概率 的 下 降 速 度 ， 在 模型 中 作为 指数 而 存在 。 它 的 取 值 对 于 
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m ek 


P 


\ 


aaya) 
CIII 


答对 率 影 响 很 大 ，4 值 越 大 ， 答 对 率 下 降 得 越 快 。 各 被 试 的 4 取 值 不 一 ， 表 明 有 些 被 试 受 效 


应 影响 程度 大 些 ， 有 些 受 影响 程度 小 些 ， 


WiKi A 取 值 存在 相关 , K 


这 也 符合 实际 情形 。 我们 不 禁 可 以 想到 被 试 的 能 力 


为 按照 一 般 逻 辑 , 能 力 强 的 被 试 相 比 于 能 力 弱 的 在 面 对 时 间 压 


力 时 应 更 为 从 容 镇 定 ， 即 使 在 测验 剩余 时 长 不 多 的 情况 下 ， 也 更 能 抵抗 这 种 负面 干扰 ， 充 分 


调动 认 知 资源 解决 问题 。 然 而 ， 完 竟 实 际 情况 是 否 与 猜测 一 致 ， 还 需 未 来 研究 去 验证 。 


3 基于 累积 和 法 的 异常 反应 侦查 
在 心理 与 教育 测量 领域 ，CUSUM 相对 CPA 出 现 得 更 早 ， 以 往 研究 者 提出 了 多 种 基于 


CUSUM 的 PFS(Bradlow & Weiss, 2001; Bradlow, Weiss, & Cho, 1998; van Krimpen-Stoop & 


Meijer, 2000, 2 


001, 2002), EFTS 


在 阐述 此 方法 的 思路 ， 因 此 在 这 里 仅 介 绍 最 基本 的 


CUSUM 的 PFS 指标 一 一 基于 题目 平均 加 权 残 差 (averaged weighted residual) 的 PFS. iri“ 
差 ”， 是 指 被 试 在 某 题 目 上 观察 与 期 望 得 分 (由 IRT 模型 预测 ) 之 间 的 偏离 程度 (Yu & Cheng, 
2019)。 因 此 ，CUSUM 的 基本 思想 在 于 : 按照 题目 顺序 依次 将 被 试 的 观察 与 期 望 得 分 的 残 
差 累加 来 构造 PFS， 以 检测 被 试 是 否 存在 异常 反应 。 传 统 的 PFS 指标 由 被 试 整个 作答 序列 
通过 一 次 计算 得 到 ， 并 未 将 题目 呈现 的 顺序 纳入 考虑 ， 这 会 导致 序列 某 处 的 正 ( 负 ) 残 差 被 另 
一 处 的 负 ( 正 ) 残 差 弥补 ， 从 而 降低 了 传统 指标 的 检测 效果 。 而 CUSUM 在 PFS 构建 上 结合 


题目 顺序 的 信息 。 


作答 数据 ， 该 涡 


io 


上 验 为 0-1 计 分 ， 共 包括 


当 它 的 指标 超过 特定 临界 值 时 ， 即 判断 为 异常 反应 。 假设 现 有 某 次 测验 的 


题 ， 为 便于 阐述 ， 此 后 的 讨论 中 将 略 去 被 试 的 下 标 


3.1 基于 单 侧 统计 量 的 题目 平均 加 权 残 差 的 PFS 


van Krimpen-Stoop 和 Meijer (2000) 以 及 Meijer (2002) 定 义 了 基于 单 侧 (one-sided) 统 计量 


的 题目 平均 加 权 残 差 的 两 种 PFS 指标 ， 这 里 的 “ 单 侧 ?是 指 此 类 统计 量 考虑 了 被 试 的 作答 表 
现 的 变化 方向 : 向 上 的 变化 意味 着 被 试 的 作答 水 平 变 高 ; 向 下 的 变化 意味 着 被 试 的 作答 水 平 
平均 加 权 残 差 的 两 种 单 侧 统计 量 一 一 向 上 ”(uppenD 统 计量 和 “ 疝 下 ”(lowen 


变 低 。 基 于 题目 


统计 量 的 公式 


I 下: 
C} =0;C; =0, (6) 
C} = max{0,T, + C},};C7 = min{0,T, + C7}, (7) 
1 2 
T, = 71X; - P(X, =1ô). (8) 
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如 (6) 式 所 示 ，C! 和 C; 的 初始 值 都 为 0， 由 公式 (7) 可 知 ，C? 恒 为 非 负 数 ，C; 恒 为 非 正 数 。 


BILE XC! AUC; 两 个 PFS 的 临界 值 分 别 为 UB 和 LB。 当 C; >UB RRC, <LB 时 ， 判 定 被 试 出 


现 了 异常 作答 。 在 0-1 计 分 测验 中 ， 当 被 试 答 错 题目 j 时 ，7 为 负数 ， 当 答对 题目 时, T 


T 


KE. WRAAE AFR- RANE, We eT, EAE, AiE C; 


(C7) 会 一 直 增 大 ( 减 小 )， 当 超过 临界 值 后 ， 作 答 将 被 判 为 异常 。 因 此 ， 基 于 CUSUM 的 PFS 


在 应 用 中 倾向 将 突然 出 现 的 一 段 “ 连 贯 ” 作 答 序 列 ( 即 一 段 得 分 多 数 为 0 或 多 数 为 1 的 序列 ) 
诊断 为 异常 。 一 般 而 言 ， 这 种 情况 意味 着 被 试 作答 模式 在 此 处 产生 了 突然 的 变化 ， 这 种 变化 
可 能 是 由 于 疲劳 、 加 速 作答 、 注 意 力 不 集 中 或 预先 了 解 试题 等 原因 所 致 (Sinharay, 2017b)。 
并 且 ， 从 上 述 介绍 中 也 可 得 知 : 由 于 CUSUM 考虑 到 了 题目 顺序 信息 并 采用 基于 累积 和 的 
统计 量 实施 侦查 任务 ， 因 此 也 具备 检测 作答 序列 中 可 能 出 现 的 多 种 异常 效应 的 能 力 。 
3. 2 基于 双 侧 统计 量 的 题目 平均 加 权 残 差 的 PFS 

在 单 侧 统计 量 的 基础 上 ，Tendeiro 和 Meijer (2012) 提 出 了 基于 双 侧 (two-sided) 统 计量 的 
题目 平均 加 权 残 差 的 PFS: 


T 。 = 
C =maxC; -minC;. (9) 
l<j<J 7 1<j<J 


双 侧 统计 量 C” 整合 了 C; 和 C7 中 的 信息 , 其 值 等 于 整个 作答 序列 中 “向 上 ?” 统 计量 Cy 和 “向 


下 ”统计 量 C7 的 最 大 差 值 。 当 C” 大 于 临界 值 时 ， 判 断 该 序列 为 异常 。 


除了 上 述 基于 题目 平均 加 权 残 差 (7, = AIX, - P(X, =] 斧 ]) 的 PFS， 研 究 者 还 提出 了 其 


È CUSUM 统计 量 ， 但 是 公式 的 表达 形式 都 是 一 样 的 ， 只 是 将 题目 平均 加 权 残 差 蔡 换 成 其 
他 内 容 ， 如 对 数 似 然 比 等 (van Krimpen-Stoop & Meijer 2001; Armstrong & Shi, 2009)， 此 处 
AN FBSA 
3.3 CUSUM 图 像 的 应 用 案例 

为 便于 理解 ， 此 处 以 一 个 具体 的 CUSUM 图 像 为 例 来 介绍 其 使 用 方法 和 注意 事项 。 图 1 
展示 了 三 名 被 试 作答 序列 的 CUSUM 图 像 : 被 试 1 为 正常 作答 的 被 试 ， 被 试 2 和 被 试 3 为 


常 作答 被 试 。 各 图 中 正三 角形 表示 C; ， 倒 三 角形 表示 C; ， 且 中 央 两 根 水 平实 线 分 别 代表 


Ci AIC, 的 临界 值 ， 即 UB 和 ZLB。 图 中 可 以 看 出 ， 两 名 被 试 的 PFS 都 会 在 测验 的 某 些 位 置 


ee 


出 临界 值 ， 因 此 两 人 的 作答 都 被 判定 为 异常 。 需 要 注意 的 是 : CUSUM 的 PFS 是 一 种 基于 
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累积 和 的 统计 量 ， 当 被 试 在 某 题 处 的 PFS 超过 了 临界 值 ， 并 不 意味 着 该 被 试 这 题 附近 出 
了 异常 。CUSUM 的 PFS 是 不 断 累积 计算 的 ， 应 当 取 离 达 到 临界 值 之 前 最 近 的 PFS=0 的 题 


目 位 置 为 变 点 估计 值 (Lai, 2001)。 比 如 被 试 3 的 C7; 虽然 在 第 53 题 处 低 于 LB， 但 PFS 从 第 


31 题 处 开始 累积 ， 说 明 他 在 该 题 附近 开 始 出 现 异 党 作答。 并且， 被 试 2 和 被 试 3 在 测验 的 
不 同位 置 出 现 异 常 作答 ， 根 据 异 常 出 现 的 位 置信 息 和 具体 形态 可 对 其 产生 原因 作 初 步 推 断 ， 
如 被 试 2 在 测验 初期 大 部 分 题目 都 答 错 了 ， 导 致 出 现 了 “向 下 ”的 异常 ,之 后 表现 较 好 ， 原 
因 可 能 是 测验 刚 开始 尚未 熟悉 测验 内 容 。 而 被 试 3 在 测验 后 期 出 现 的 异常 可 能 是 因 疲 劳 或 加 
速 作答 所 致 。 
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图 1 三 名 被 试 的 CUSUM 图 像 
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3.4 两 种 CUSUM 的 PFS 简 评 

CUSUM 是 一 种 基于 序列 的 技术 ， 在 每 道 题 后 立即 更 新 统计 量 数值 ， 由 于 可 输出 图 像 ， 
该 方法 具有 可 视 化 的 优势 。 通 过 观察 图 像 ， 能 迅速 明晰 异常 反应 发 生 的 位 置 (Meijer 2002). 
凭借 这 种 优势 ，CUSUM 还 可 在 基于 计算 机 (computer-based) 的 测验 中 实施 过 程 监控 (process 
monitoring): 通过 计算 机 程序 实时 监控 被 试 的 整个 作答 过 程 ， 当 异常 出 现 后 迅速 反馈 给 测验 
管理 者 ， 以 便 及 时 实施 干预 。 但 是 在 纸 笔 测 验 (P&P) 中 ， 则 无 法 进行 干预 。 

两 种 CUSUM 的 PFS 中 ， 基 于 单 侧 和 双 侧 的 指标 各 有 所 长 。 若 在 侦查 伊始 ， 测 验 管理 
者 对 于 待 侦查 的 异常 反应 类 型 有 明确 认识 ， 建 议 选择 基于 单 侧 的 PFS。 例如 ， 当 需要 探测 被 
试 是 否 出 现 了 加 速 作 答 , 可 直接 选用 “向 下 ”的 PES. 而 如 果 测 验 管理 者 的 目标 是 侦查 “笼统 ” 
而 非 某 种 特定 的 异常 反应 ， 即 仅仅 对 于 标定 测验 中 的 异常 作答 被 试 感 兴趣 ， 此 时 双 侧 PFS 


会 比 单 侧 PFS 更 适用 。 并 且 ， 实 际 测验 中 双 侧 统计 量 C 往往 会 比 单 侧 统计 量 Cy 和 C7 更 加 


有 效 ， 原 因 在 于 : 实际 测验 中 能 力 真 值 9,,,, 无 法 获知 ， 所 使 用 的 是 能 力 估 计 值 9,,,,,。 假 设 

Bad i 在 测验 的 前 半 部 分 以 真实 能 力 Orue 作答 ， 而 在 后 半 部 分 以 更 高 (更 低 ) 的 能 力 9%, E 

答 。 此 时 根据 整个 作答 序列 估计 得 到 被 试 能 力 值 9,,,,， 其 取 值 必 介 于 6, 与 6% 之 间 。 

如 此 一 来 , 单 侧 统 计量 的 PFS 在 测验 的 两 半 部 分 (无 论 是 正常 还 是 异常 部 分 ) 都 会 表现 出 异常 : 
其 中 一 半 将 会 表现 出 “向 上 ”的 异常 , 另 一 半 会 表现 出 “向 下 ”的 异常 。 双 侧 PFS 由 于 结合 了 两 

类 单 侧 PFS 的 信息 可 有 效 避 免 这 种 情况 发 生 (Armstrong & Shi, 2009)。 通 过 基于 CUSUM 的 

` PFS 指标 ， 可 以 清晰 了 解 异 常 反应 在 作答 序列 中 的 位 置 。 然 而 ， 当 侦 测 任务 需要 确定 变 点 位 

= 置 时 ， 测 验 管理 人 员 须 亲自 检查 CUSUM 输出 图 像 以 定位 变 点 ， 比 较 费 时 费力 。 接 下 来 介 

© 绍 的 CPA 可 以 免 去 人 工 检 查 的 麻烦 ， 由 算法 自动 精准 定位 变 点 ， 有 效 节省 人 力 资源 。 


4 基于 CPA 的 异常 反应 侦查 

CPA 以 一 种 完全 不 同 于 CUSUM 的 视角 来 看 待 异常 反应 侦查 的 问题 ， 它 可 以 检测 出 由 
随机 变量 组 成 的 序列 中 ， 是 否 存在 一 个 或 多 个 变 点 : 在 变 点 前 后 模型 或 模型 参数 是 相 异 的 。 
前 心理 与 教育 测量 学 中 常用 的 四 种 CPA 的 PFS 主要 有 基于 似 然 比 检验 的 ,基于 Wald 


检验 的 殉 ,，、， 基 于 得 分 检验 的 8%$。. 和 基于 加 权 残 差 的 尺 ，. 。 前 三 种 PFS 由 Shao 等 人 (2016) 


LIK 


和 Sinharay (2016, 2017a, 2017b, 2017c) 提 出 ， 而 最 后 一 种 由 Yu 和 Cheng (2019) 提 出 。 四 种 
PFS 构造 的 基本 原理 都 在 于 : 若 某 被 试 作答 序列 中 存在 变 点 ， 则 此 序列 能 以 题目 7 为 界 划分 
为 两 个 子 序列 : 序列 1 为 X,X， ,和 X， 序 列 2 为 XXX 。 这 两 个 子 序列 在 某 种 统 
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计 学 属性 上 具有 根本 性 差异 ，CPA 的 PFS 可 量化 这 种 差异 。 若 PFS ERAR n 值 时 达到 最 
大 且 显 著 则 表明 第 n 题 为 变 点 位 置 。 
4.1.1 基于 似 然 比 检验 (likelihood ratio test) 的 PFS 
首先 构造 检验 虚无 假设 0, = On 并 且 基 于 似 然 比 检验 的 统计 量 ， 当 on 取 某 已 知 的 值 时 ， 
对 数 化 处 理 后 的 统计 量 如 下 所 示 : 


L, = BOX of HL DLO, X pI EL.) Lg Oy an Xj Enn.. 


(10) 


其 中 , 7 HMA SMa Alb RHEA. Â AY, 表示 由 该 被 试 整体 作答 数据 估计 的 参 


数 ，0, 入, ,人 分 别 表 示 由 变 点 前 后 作答 序列 所 估计 的 参数 。 上 述 参数 通过 传统 IRT 


模型 估计 得 到 。 以 La 为 例 ， 对 数 似 然 函数 的 具体 展开 形式 为 : 


Ly lÂ Pm Xj» =1,2,....2) = XIX log PÂ, +(1— X logal- PÂ, (11) 
j=l 


为 方便 理解 ， 此 处 只 考虑 一 处 变 点 的 情况 , Al<n<J-1, 在 n 取 值 范围 内 ,定义 基于 似 然 
比 检验 的 PFS 指标 Lmax N: 


Lax = Max L,. (12) 


La 检验 的 虚无 假设 五, 为 : 此 序列 不 存在 变 点 ( 即 对 于 取 值 范围 内 任意 n On = On AM 
SE); 对 应 的 备 择 假设 及 ,为 : 序列 至 少 存在 一 处 变 点 。 对 于 Ln 而 言 ， 在 虚无 假设 下 服从 自 


由 度 为 1 的 渐 近 Xx 分布， 这 是 因为 : 似 然 比 检验 的 统计 量 服从 自由 度 为 两 撕 套 模型 未 知 参 


数 个 数 之 差 的 渐 近 X 分 布 ， 此 处 的 约束 模型 (虚无 假设 模型 ) 与 无 约束 模型 ( 备 择 假设 模型 ) 相 


比 只 多 了 一 个 约束 条 件 (6,, = 9, )， 两 模型 中 未 知 参数 个 数 相差 1， 因 此 这 里 的 自由 度 为 1， 
后 文 将 介绍 的 基于 Wald 检验 的 和 得 分 检验 的 PFS 同 理 。 然 而 ， 因 Linax 取 Ln RAMA, Ar 
以 Lax 不 服从 某 个 自由 度 已 知 的 卡 方 分 布 (Chen & Gupta, 2012)， 并 无 建议 的 分 布 ， 它 的 虚 
无 假设 分 布 (null hypothesis distribution) 能 通过 蒙特 卡 洛 模拟 获得 ， 并 可 以 根据 虚无 假设 分 布 
得 到 各 显著 性 水 平 上 的 临界 值 Cc。Zc 作 为 临界 值 ， 可 用 于 判断 基于 似 然 比 检验 的 Lima 是 
WR. AL, > Le» ， 则 认为 该 作答 序列 存在 变 点 ， 并 得 到 变 点 的 具体 位 置 "”， 即 在 题目 后 
被 试 的 作答 发 生 改变 。 若 工 ,,, < 五 ， 则 认为 该 被 试 作答 正常 ， 不 存在 变 点 。 

Zou 适用 于 双 侧 检验 (two-sided test)， 以 检验 虚无 假设 H, 的 正确 性 。 当 侦查 目标 仅仅 是 


检测 被 试 的 作答 序列 中 是 否 存在 变 点 而 不 考虑 能 力 变化 方向 时 ， 采 用 这 个 统计 量 是 合适 的 。 
13 


oy 


JD}, 


然而 ， 当 侦查 任务 是 检验 由 某 种 目标 效应 (如 加 速 作答 ) 导 致 产生 的 变 点 时 ， 则 需 对 Linas 进行 
变换 。 例 如 ， 当 检测 某 个 可 能 存在 加 速 作答 的 作答 序列 时 ， 检 验 的 虚无 假设 已 为 ， 对 于 取 
值 范围 内 任意 n 0, <0, 始终 成 立 。 即 检测 目标 是 判断 被 试 在 测验 后 期 的 作答 表现 是 否 比 


初期 差 。 这 种 情况 下 ， 引 出 Linax 的 单 侧 检 验 形式 (Sinharay, 2017a)， 首 先 有 : 


| fies 
= -JL 2 ô, <0. 


其 中 ，6 是 基于 受 菜 效应 影响 的 作答 序列 估计 能 力 值 ， 扩 是 正常 作答 序列 估计 能 力 值 。L， 


$ 


F 
是 单 侧 检 验 统 计量 ， 其 绝对 值 等 于 五 的 平方 根 ， 并 且 在 虚无 假设 下 服从 渐 近 的 标准 正 态 


布 ， 原 因 在 于 : 在 虚无 假设 下 0 > 6 与 9 <Â 是 等 可 能 出 现 的 ， 因 此 工 取 正 或 负 的 符号 次 


数 也 是 趋 近 的 ， 且 由 于 元 ,的 绝对 值 等 于 五 的 平方 根 ， 五 服从 自由 度 为 1 的 渐 近 X 分 布 ， 所 


DA L, 在 虚无 假设 下 服从 渐 近 标准 正 态 分 布 。 当 异常 部 分 的 能 力 估计 值 高 于 正常 能 力 估计 值 


也 


时 ， 使 用 正 的 统计 量 进行 检验 ， 否 则 使 用 负 的 统计 量 。 
由 此 ， 单 侧 PFS 指标 可 表达 为 : 


= max L, , 若 0 >0， 
ao (14) 
= min L,, 6 <À. 


l<n<J 


例如 ， 当 需要 检验 某 被 试 是 否 存在 加 速 作答 时 ， 使 用 的 PFS 指标 为 L = min L,, ， 此 时 


L, = 


若 工 显著 低 于 临界 值 ， 则 拒绝 虚无 假设 ， 认 为 被 试 存在 加 速 作答 行为 并 可 由 此 定位 变 点 。 


= 4.1.2 基于 Wald 检验 (Wald test) BY PFS 
© 基于 Wald 检验 的 统计 量 也 可 用 于 检验 虚无 假设 9, = 6,, 的 正确 性 , 当 n 取 某 给 定 值 时 ， 
统计 量 的 公式 如 下 : 
(4,-4,) 
W,=— ra (15) 
LEI O 
其 中 , 7 表示 对 应 作答 序列 (序列 1 A 2) 所 有 题目 的 Fisher 信息 量 总 和 。 题 目的 信息 量 是 RT 


中 用 于 衡量 人 条 题 对 特定 能 力 值 被 试 可 提供 测量 精度 的 指标 , 信息 量 越 大 , 表示 该 题 对 于 这 种 
能 力 被 试 的 测量 效果 越 好 。 注意 : 此 处 计算 信息 量 使 用 的 是 通过 整个 作答 序列 估计 的 能 力 值 


Oo 
0 


0 


7 的 信息 量 公式 为 


& 


i 17a; ig 
i(9) IPT ee (16) 


与 Lmax 类 似 地 ’ Wmax 表示 为 : 


人 We = max W, (17) 


同样 地 ， 该 指标 检验 的 虚无 假设 7 为 : 此 序列 不 存在 变 点 ， 备 择 假设 有 为 : 序列 至 少 存 在 


一 处 变 点 。Andrews (1993) 以 及 Csorgo 和 Horvath (1997) 发 现 ， 当 变 点 位 于 作答 序列 最 前 或 
者 最 后 几 题 时 ，Wia 的 侦 测 效力 (power) 将 会 变 得 十 分 小 。 因 此 ，Andrews (1993) 22 WU n IR 
定 在 整个 作答 序列 的 中 间 约 70% 的 范围 即 W = max W, Ji RIE 0.157 的 整数 ， 以 增 


max 
J,snsJ—J, 


强 检 测 效力 。 对 于 前 述 Pu， 也 可 以 在 使 用 时 做 此 限定 ， 提 高 侦 测 效力 。 
基于 Wald 检验 的 统计 量 Wa 适用 于 双 侧 检验 ， 当 进行 单 侧 检 验 时 ， 只 需 对 (15) 式 右 侧 
开 根 号 ， 变 成 单 侧 检 验 统计 量 Wen: 


W, = In n ， (1 8) 


jà 
ji 


E a 
I, (A ) Ln (A, 


wa 


此 时 ， 单 侧 检验 的 指标 W.(Estrella & Rodrigues, 2005) 表 达 式 为 : 


IsnsJ-1 3 (19) 


W, WEIEN fi. Æ 到 临界 值 的 绝对 值 为 h, 当 We API MEL AS, nj 


A 


Hy MER n FO, <Â, 。 即 认为 序列 中 存在 变 点 且 被 试 在 变 点 前 的 能 力 高 于 变 点 后 能 力 ， 


例如 在 测验 中 出 现 加 速 作 答 ; 当 到 W; 取 值 最 著 小 于 临界 值 -h 时 ， 则 可 拒绝 虚无 假设 A, :对 任 


A 


Bin 6, > 入 ， 即 认为 序列 中 存在 变 点 且 被 试 在 变 点 前 能 力 低 于 变 点 后 能 力 ， 例 如 出 


身 效应 。 
4.1.3 基于 得 分 检验 (score test) 的 PFS 
于 得 分 检验 的 统计 量 % 可 检验 虚无 假设 2 = 6,， 当 nn REREN, KARN: 


tat 


| 人 [VX PER TE DI 
1,, (4) 1, (,) 


(20) 


H 


Jt, VOX), 7=1,2,...m) MVG;X,,j=nt1n+2,...,J) 分 别 指 作答 序列 1 和 2 在 9= 人 6 


处 对 数 似 然 函 数 的 一 阶 导数 。V(@);X,, j=1,2,.….,n) 的 展开 式 详 见 Baker 和 Kim(2004, pp. 64- 
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71)。 
类 似 地 ， 


Smax = Max S,- (21) 


Smar 检 验 的 虚无 假设 为 :此 序列 不 存在 变 点 ， 而 备 择 假设 为 : 序列 至 少 存在 一 处 变 点 。 这 里 
也 可 将 n 的 取 值 范围 限定 在 工 到 了- 荆 间 ， 以 增强 检测 效力 。 


Smas 与 Lm 一样， 更 适用 于 双 侧 检验 。 在 单 侧 检 验 中 ， 统 计量 应 变更 为 如 下 形式 .: 


Sa Ai J, > 9. 
m=] maea A (22) 
Sa AO, < 0, 
S 是 单 侧 检验 统计 量 ， 各 符号 意义 与 4.1.1 中 单 侧 统计 量 二 一致 
因此 ， 单 侧 PFS 指标 9, 可 表达 为 : 
= max Sant 9, 2 9 ， 
S, = I<n<J-1 、 、 (23) 
= min S,,.# 5 < s' 


使 用 方法 与 前 述 元 一 致 。 
4.1.4 基于 加 权 残 差 (weighted residual) 的 PFS 


为 探测 被 试 在 心理 测验 中 的 后 期 随机 作答 (back random responding) 行 为 ，Yu 和 Cheng 
(2019) 构 建 了 基于 加 权 残 差 的 PFS 指标 。 对 于 测验 中 正常 反应 的 被 试 而 言 ， 其 观察 得 分 模式 
会 与 期 望 得 分 模式 十 分 接近 。 而 对 于 异常 反应 被 试 , 观察 与 期 望 得 分 模式 之 间 会 产生 较 大 的 
偏离 。 基 于 加 权 残 差 PFS 的 原理 在 于 : 找到 某 个 能 够 将 完整 作答 序列 划分 为 两 个 子 序列 的 
点 ， 该 点 可 使 两 个 子 序列 的 平均 绝对 加 权 残 差 (ABWR; average absolute weighted residual) Z 
间 的 差 值 最 大 化 。 有 具体 构造 流程 如 下 : 


Yu 和 Cheng (2019) 的 研究 基于 多 级 计 分 的 心理 测验 ， 加 权 残 差 ”(O) 公式 为 : 


~ X; -EX lô 


(0)= ~ 24 
Wo (24) 


式 中 分 子 即 观察 与 期 望 得 分 间 残 差 的 表达 式 ， 表 示 观 察 与 期 望 得 分 之 间 的 偏离 程度 。 分 母 是 


对 于 给 定 能 力 为 6 的 被 试 , 他 在 第 j 题 上 的 得 分 为 蕊 的 概率 。 在 0-1 计 分 下 ,加 权 残 差 可 以 
REN: 


5 Xj — P(X, =le 


(@)= = 25 
an (25) 


1 J ^ 
r, (0,,) 
=n j=n+1 


1 n x 
-=F |ê), (26) 
n j=l 


SS 


到 由 变 点 前 的 正常 作 


由 于 Yu 和 Cheng (2019) 侦 测 的 是 后 期 随机 作答 现象 ， 因 此 这 里 只 使 用 


答 序列 计算 的 能 力 值 6, 。 而 且 ， 不 局 限于 后 期 随机 作答 ， 只 要 是 侦查 在 测验 后 期 出 现 的 异 


常情 况 ， 均 可 采用 (26) 式 。 知 要 侦查 测验 前 期 异常 ， 那 么 式 子 可 以 转变 为 ; 


R, 二 一 


1 ~ A 
rÊ) (27) 
=n j=n+1 


最 终 ， 基 于 加 权 残 差 的 PFS， 即 Rinax 的 公式 为 : 


R= max R.. (28) 


max snsJ-1 ” 


与 前 述 Lary Winax 和 Su 三 种 指标 不 同 的 是 ，Rwnu 在 7 给 定 下 的 统计 量 R, 不 用 于 检验 虚无 
假设 0, = 和 ,而 是 检验 测验 前 期 (后 期 ) 是 否 发 生 异 常 反 应 .对 于 及 ,而 言 , 某 子 序列 的 ABWR 
反映 了 该 子 序列 观察 与 期 望 得 分 模式 之 间 的 偏离 程度 ， 当 变 点 前 后 子 序列 ABWR 的 差 值 超 
过 了 一 定 范围 ， 便 可 说 明 该 被 试 在 测验 前 期 (后 期 ) 出 现 了 异常 反应 。 与 其 它 指标 相 比 ，Rimax 
更 适合 用 在 低 风 险 的 心理 测验 之 中 。 心理 测 验 中 常 由 于 被 试 作答 动 机 缺失 导致 随机 作答 产生 。 
然而 ， 随 机 作答 不 一 定 意味 被 试 特质 水 平 的 变动 ， 本 身 持 中 立 观 点 的 被 试 ( 即 2 值 在 0 附近 ) 
在 随机 作答 的 情况 下 能 力 估计 值 可 能 不 会 发 生 改变 。 假 设 Ruue 的 临界 值 为 某 正 数 h, 那么 异 
常 反应 的 判定 标准 为 :， 如 果 Ra 显著 大 于 h， 对 于 (26) 式 而 言 ， 说 明 被 试 在 测验 后 期 出 现 了 
异常 反应 ， 而 对 于 (27) 式 ， 则 说 明 前 期 出 现 异常 。 
4. 1.5 CPA 四 种 常用 的 PFS 简 评 

CPA 的 四 种 PFS 的 基本 原理 都 在 于 : 判断 是 否 存在 可 将 被 试 作答 序列 划分 为 统计 学 属 
性 上 具有 根本 差异 两 部 分 的 点 ， 并 定位 该 点 位 置 。Lwae、WWwax、Smar 和 Rmax 四 种 指标 具有 不 
ERE, Lmao Wmas 和 Smas 的 统计 量 Lay Wr 和 5; 用 于 检验 虚无 假设 90, = 8, ， 因 此 La、 
Wmas 和 Smas 作为 双 侧 检验 指标 而 存在 。 即 当 侦 查 目 标 仅 是 检测 序列 是 否 存在 异常 反应 ， 未 
对 异常 类 型 有 明确 限定 时 ,此 时 使 用 这 些 指 标 是 比较 好 的 ,当然 , 这 三 种 指标 也 有 单 侧 形 式 ， 
当 目标 是 侦查 具体 的 异常 反应 类 型 (如 加 速 作答 ) 时 ， 适 合 使 用 单 侧 指标 。 并 且 ， 在 具体 应 用 
FAME, Lmax Wmas 和 Sma 三 种 指标 更 适用 于 高 风险 (high-stakes)、 大 规模 (large-scale) 的 教育 
测验 。 而 Rr 因 其 本 身 特性 ， 它 的 统计 量 R 不 用 于 检验 虚无 假设 9, = 0,, ， 而 是 检验 测验 
前 期 或 后 期 是 否 存在 异常 。 当 测验 管理 者 对 于 待 侦 测 的 目标 效应 有 明确 了 解 时 , 例如 已 明确 
了 侦 测 目标 是 后 期 随机 作答 ， 此 时 使 用 Ra 是 合适 的 。 在 应 用 层面 上 ，Rwnu 更 适用 在 低 风险 
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(low-stakes) 的 心理 测验 当中 。 


Sinharay (2016) 在 计算 机 自 适应 测验 的 环境 下 对 Linaxy Wmax 和 Smas 三 种 PFS 实施 了 模拟 
究 。 结 果 表 明 : 三 种 PFS 中 ， 基 于 Wald 检验 的 Wna 效力 最 高 ， 基 于 似 然 比 检验 的 Lax 


nt 


效力 其 次 ， 而 i 基于 得 分 检验 的 Smax 效力 最 低 。 Yu 和 Cheng (2019) 将 也 W max, Smax 和 Rmax 
四 种 PFS 一 同 用 于 探测 后 期 随机 作答 , 并 对 它们 的 探测 性 能 进行 比较 。 结 果 发 现 : 四 种 PFS 
对 于 侦 测 任务 的 一 型 错误 率 (Type-Il error rate) 都 控制 得 很 好 , 但 是 Rma 的 效力 要 比 其 他 三 种 


PFS 高 出 17% 到 42%. 


4.2 CPA 中 PFS Ils AE AY RAE aK 

在 使 用 CPA 进行 异常 反应 侦 测 时 ， 必 须 借助 PFS， 因 此 PFS 临界 值 的 确定 十 分 重要 。 
如 果 PFS 的 临界 值 选取 得 不 合适 ， 侦 测 的 准确 性 会 大 幅 降低 ， 导 致 CPA 的 价值 大 打折 扣 。 
目前 对 于 Lary Wmax, Smas 和 Rmax IME Le, We, Sc 和 Re 的 获取 ， 研 究 者 们 提出 了 多 种 方法 。 
在 此 介绍 两 种 使 用 较 广 的 方法 : Worsley (1979) 提 供 的 蒙特 卡 罗 模 拟 (Monte Carlo simulation) 


的 方法 以 及 Storey 和 Tibshirani (2003) 提 出 的 FDR 控制 的 方法 。 
4. 2.1 蒙特 卡 罗 模 拟 

此 方法 的 具体 步骤 如 下 : 

1) ”模拟 10000 名 被 试 的 作 管 , 被 试 的 能 力 分 布 从 N(0,1) 中 抽取 ,通过 能 力 参数 和 已 知 
的 题目 参数 生成 这 些 被 试 的 作答 窍 阵 ， 因 此 这 些 被 试 都 视 为 正常 作答 ， 这 一 步 共 重 复 200 


次 。 


2) ”根据 每 次 重复 下 每 名 被 试 的 作答 数据 可 以 计算 出 其 Da Wmas Smar 或 Rmaro 注意 : 
此 处 计算 中 使 用 的 是 估计 能 力 值 6,,。 ， 并 且 所 有 指标 均 为 正 数 。 

3) ”每 一 次 重复 下 的 10000 个 Lina, Wmas, Smar 或 Rmax 构成 虚无 假设 分 布 , 若 取 0.05 显著 
性 水 平 ， 则 每 次 重复 下 取出 其 10000 个 值 当中 最 大 的 500 个 数 ， 然 后 取 “200 次 重复 * 每 次 
重复 下 最 大 的 500 个 数 ( 共 10000 个 数 )” 的 平均 数 作为 临界 值 Lc、Wc、Sc 和 Re 的 取 值 。 
4. 2. 2 FDR 控制 法 

在 一 项 包含 V 名 被 试 的 测验 中 ， 需 要 同时 检验 Y 个 假设 ( 即 对 每 名 被 试 是 否 作答 异常 进 
行 检验 ), 需要 比较 NUK PFS 与 临界 值 的 大 小 ,这 属于 多 重 比较 (multiple test). Shao 等 人 (2016) 
认为 ， 此 时 临界 值 的 设 定 不 能 按照 普通 做 法 以 0.05 或 0.01 为 显著 性 水 平 ， 而 应 进行 校正 。 
一 般 有 两 种 常用 校正 方式 ， 一 种 是 Bonferroni 校正 (Bonferroni correction)， 将 显著 性 水 平 校 
正 为 0.05/N 或 者 0.01/N， 但 由 于 实际 测验 中 样本 容量 N 的 值 很 大 ， 所 以 这 种 方法 过 于 严格 


保守 ， 在 每 一 次 假设 检验 中 都 很 难 拒绝 虚无 假设 ， 男 外 一 种 方法 是 控制 错误 发 现 率 (false 
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discovery rate, FDR; Benjamini & Hochberg, 1995)。 在 基因 学 研究 中 这 种 方法 经 常用 于 多 重 比 


较 的 校正 (Benjamini & Hochberg, 1995; Genovese, Lazar, & Nichols, 2002; Li, Witten, 
Johnstone, & Tibshirani, 2012; Schwartzman & Lin, 2011). FDR 表示 错误 标记 的 数目 占 标 记 总 
数 的 期 望 比例 , 此 方法 核心 思想 在 于 将 错误 发 现 率 控制 在 可 接受 的 水 平 。 例 如 在 一 次 测验 中 ， 
经 侦查 后 将 100 名 被 试 标记 为 异常 作答 , 在 这 100 名 被 试 中 , 90 名 是 真正 异常 作答 的 个 体 ， 
另外 10 名 其 实 是 正常 作答 的 个 体 , 属于 错误 标记 , 因此 这 里 的 FDR 值 为 0.1。 在 此 介绍 Storey 
和 Tibshirani (2003) 提 供 的 步骤 ， 为 便于 讲解 ， 仅 Lc 的 确定 过 程 为 例 进 行 曾 述 ， 具 体 步 又 如 
下 : 

1) “在 已 有 实测 数据 的 情况 下 , 重新 排列 每 名 被 试 作答 数据 的 顺序 , 然后 计算 单 次 排序 
下 所 有 人 的 Lwax， 总 共 重 排 B 次 (如 B=100)。 每 次 重 排序 后 所 有 被 试 的 Lma 集 合 视 作 虚无 假 
设 分 布 。 


2) 了 为 临界 点 Le 的 取 值 ， 是 未 知 数 。 在 此 有 如 下 公式 : 


(29) 


其 中 ，5 是 重 排序 的 序号 ，7 为 指示 函数 ， 当 >T 时 ，1 =1， 即 因 指标 超过 临界 值 被 标 


记 为 异常 ， 否 则 ，7 =0 。FDR 取 值 可 以 根据 研究 和 应 用 的 需要 人 为 设 定 ， 统 计 学 界 一 般 建 
议 设置 为 02。 于 是 可 解 得 一 个 最 小 的 T 值 满足 FDR<0.2 ， 如 此 便 得 到 了 临界 点 Lc 的 值 。 

FDR 控制 法 的 原理 在 于 ， 分母 是 被 标记 为 异常 反应 的 被 试 总 数 ， 分 子 是 对 于 总 共 甩 次 
重 排序 而 言 ， 被 标记 为 异常 反应 的 被 试 的 平均 数 。 每 次 重 排序 后 所 有 被 武 的 作答 序列 都 视 作 
正常 作答 序列 ， 故 每 次 重 排序 下 所 有 PFS 构成 虚无 假设 分 布 ， 分 布 中 大 于 临界 值 的 Lwor 都 
认为 是 错误 标记 。 因 此 ， 公 式 (29) 充 分 解释 了 “FDR 是 错误 标记 的 数目 占 标记 总 数 的 期 望 比 
例 ” 这 一 定义 。 


4.2.3 CPA 中 PFS 临 因 值 的 确定 方法 简 评 

蒙特 卡 罗 模 拟 与 FDR 控制 法 各 有 所 长 。 蒙 特 卡 罗 模 拟 通过 生成 的 被 试 参数 9 和 已 知 的 
题目 参数 产生 模拟 作答 , 然后 在 一 定 显 著 性 水 平 下 取 顶 端 数值 的 平均 数 作为 临界 值 , 这 种 方 
法 较为 简便 易 行 , 但 显得 比较 粗糙 ,而 FDR 控制 法 考虑 到 了 多 重 比较 中 显著 性 水 平 的 校正 ， 
这 是 一 个 实际 的 、 需 要 重视 的 问题 。 这 种 方法 控制 了 异常 反应 侦 测 中 的 错误 发 现 率 , 使 错误 


发 现 率 处 于 可 接受 的 水 平 ， 这 符合 实际 情况 。 因 此 ，FDR 控制 法 更 适合 应 用 于 心理 与 教育 


5 CUSUM 与 CPA 的 综合 分 析 与 比较 
5. 1 CUSUM 与 CPA 基本 思路 的 分 析 与 比较 

CUSUM 与 CPA 同属 于 异常 反应 侦 测 的 方法 ， 用 于 分 析 被 试 作答 序列 中 是 否 存 在 转变 
点 ， 从 更 为 广泛 的 层面 上 而 言 ， 两 者 都 可 纳入 “ 变 点 分 析 ” 的 范畴 。 但 是 两 种 方法 从 基本 思路 
上 而 言 完 全 不 同 ，CUSUM 按照 题目 顺序 依次 将 一 系列 正 或 负 的 残 差 (观察 与 期 望 得 分 间 的 
残 差 ) 累 加 求 和 ， 以 得 到 单 侧 和 双 侧 PFS， 当 然 ，CUSUM 可 以 累加 的 并 不 限于 残 差 ， 还 可 
以 是 对 数 似 然 比 等 内 容 。 因 此 ， 该 方法 在 每 题 后 都 可 更 新 PFS 的 值 。 而 CPA 的 基本 思想 在 
于 判断 被 试 的 整个 作答 序列 是 否 可 以 在 茶点 处 划分 为 两 个 子 序列 , 这 两 个 子 序列 的 某 种 统计 
学 属性 上 的 差距 会 足够 大 ，CPA 的 PFS 可 量化 这 种 差距 ， 并 且 精 准 定 位 变 点 位 置 。 
5.2 CUSUM 与 CPA 优 缺 点 的 分 析 与 比较 

CUSUM 和 CPA KATIK, 表 1 陈列 了 这 两 种 方法 的 各 项 特性 。 CUSUM 的 最 大 优势 在 
于 它 提 供 了 一 种 可 视 化 的 模式 ， 能 快速 清楚 地 获知 异常 反应 发 生 的 位 置 。 并 且 ， 在 CAT 中 
测验 人 员 还 可 使 用 CUSUM 实施 过 程 监控 ， 可 及 时 地 干预 被 试 作 答 。 此 外 ， 它 还 具有 一 项 
较 大 的 优势 : 通过 观察 图 像 ，CUSUM 可 以 清晰 、 直 观 、 便 捷 地 进行 多 变 点 (multiple change 


UUU 


NI points) 分 析 。 但 是 ，CUSUM 的 缺点 在 于 : 它 必须 人 工 检查 输出 的 图 像 以 定位 变 点 ， 并 且 定 
位 准确 性 相 较 CPA 更 差 。 与 之 对 应 ，CPA 的 优点 是 : 它 不 仅 可 以 判断 某 被 试 是 否 出 现 异常 


© 反应 ， 还 能 自动 精确 地 定位 变 点 。CPA 无 需 像 CUSUM 一 样 通过 观察 图 像 来 寻找 变 点 ， 而 
= 是 直接 通过 PFS 得 到 “ 变 点 存在 与 否 ”的 结论 ， 如 果 变 点 存在 ， 直 接 定位 它 最 有 可 能 的 位 
置 。 这 在 大 规模 测验 中 尤其 重要 ，CPA 方法 极 大 地 节省 了 人 力 资源 ， 这 是 它 的 一 大 优势 。 
然而 ，CPA 也 有 缺陷 , 当 变 点 位 于 序列 最 前 或 最 后 几 题 时 ，CPA 的 检测 效力 将 会 大 受 影响 ， 
此 时 很 难 对 异常 反应 实施 侦 测 ， 且 难以 精确 定位 变 点 。 原 因 在 于 过 少 的 题 量 无 法 对 被 试 能 力 
值 9 形成 正确 估计 ， 因 此 正如 4.1.2 中 介绍 的 : Andrews(1993) 建 议 将 变 点 探测 范围 限定 在 整 
个 作答 序列 的 中 间 约 70% 的 范围 。 然 而 在 实际 应 用 中 ， 变 点 位 置 却 常 位 于 此 范围 之 外 。 
Sinharay (2016) 在 CAT 的 环境 下 实施 研究 ， 发 现 了 基于 CPA HY PFS( Loo Woe P Soa) 
侦 测 效力 会 优 于 基于 CUSUM 的 PFS。 在 关于 实际 应 用 中 应 该 选用 哪 种 方法 的 问题 上 ， 
Hawkins, Qiu 和 Kang(2003) 认 为 : 当 变 点 前 后 被 试 的 作答 模型 已 知 的 情况 下 ， 采 用 基于 
CUSUM 的 PFS 会 更 加 有 效 ; 然而 若 有 一 个 或 多 个 模型 参数 未 知 , 则 基于 CPA 的 PFS 更 优 。 


在 心理 与 教育 测验 中 , 模型 参数 难以 精确 估计 , 根据 包含 大 量 异常 反应 数据 的 原始 作答 矩阵 
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所 估计 的 参数 是 不 够 可 靠 的 。 因 此 ， 在 实际 检测 中 ，CPA 要 优 于 传统 的 CUSUM， 所 以 应 当 
在 心理 与 教育 测量 学 的 研究 与 应 用 中 推广 这 种 新 方法 。 


表 1 CUSUM 与 CPA 的 综合 比较 

方法 主要 思想 PFS 单 双 侧 指标 优点 缺点 适用 情境 

CUSUM ”按照 题目 顺序 依 “ 基于 题目 平均 加 权 残 差 的 单 侧 指 “” 在 侦 测 前 已 明 输出 图 像 ,可 用 需 人 工 检 查 ” 变 点 前 后 模型 参数 已 知 。 
ne Ena BRC? ,C- 和 双 侧 指标 Cr 。 确 目标 效应 时 ”于 过 程 监控 。 图 像 来 定位 
与 期 望 得 分 间 的 l 用 单 侧 指标 , 未 变 点 ， 准 确 性 
残 差 累积 求 和 。 明确 目标 效应 较 低 。 

CPA 找到 某 个 可 将 序 ” 双 侧 指标 : 基于 似 然 比 检验 的 ”或 对 目标 效应 ”自动 精确 定位 当 变 点 位 于 变 点 前 后 模型 参数 未 知 。 其 
列 划分 为 具有 不 Tau ， 基 于 Wald RER Win ”不 作 具 体 要 求 ” 变 点 。 序列 最 前 或 ”中心 Woa 和 Sina 适用 
同 统计 学 属性 两 ”基于 得 分 检验 的 Soa 和 基于 加 权 ”时 用 双 侧 指标 。 最 后 几 题 时 于 高 风险 (教育 ) 测 验 ，R,、 
部 分 的 点 。 残 差 的 Raw ， 以 及 各 自 的 单 侧 形 难以 定位 。 适用 于 低 风 险 ( 心 理 ) 测 验 。 

式 。 


6 问题 与 展望 

在 心理 与 教育 测验 普遍 重视 测验 信 效 度 、 测 验 安全 的 大 环境 下 ,异常 反应 侦查 已 成 为 
项 不 可 忽视 的 课题 , 并 且 具 有 重要 的 理论 与 实践 意义 。 当 前 对 异常 反应 侦查 的 研究 需求 已 十 
分 紧迫 ， 卫 需 得 到 开展 和 深入 。 异 常 反 应 现象 在 测验 中 十 分 常见 ,会 直接 影响 研究 结论 的 可 
靠 性 与 可 推广 程度 。Shao 等 人 (2016) 认 为 , 数据 分 析 时 若 存 在 加 速 作答 数据 会 使 题目 和 被 斌 
参数 估计 产生 偏差 , 而 有 偏 参数 会 导致 测验 管理 者 对 分 数 作出 错误 解释 进而 实施 不 正确 决策 。 
因此 ， 当 下 明 需 开发 并 完善 行 之 有 效 的 异常 反应 侦查 方法 。CPA 在 医学 、 气 象 、 经 济 等 领 
域 的 应 用 已 有 很 长 一 段 时 间 , 但 是 在 近 些 年 才 开始 “移植 "到 心理 与 教育 学 领域 。 它 相 较 于 伟 
统 方法 具有 较 大 的 优势 ， 能 够 自动 精确 地 检测 出 变 点 位 置 ， 有 效 节省 人 力 资源 。CPA 结合 
了 新 一 代 测 量 理论 一 一 项 目 反 应 理论 , 将 之 运用 于 心理 与 教育 测量 领域 , 可 为 测验 人 员 提 供 
极 大 的 便利 , 帮助 高 效 准确 地 甄别 异常 反应 被 试 并 对 作答 数据 进行 清洗 以 提高 参数 估计 精度 。 

虽然 CPA 在 异常 反应 侦查 中 具有 种 种 优势 ， 但 在 实际 情境 的 应 用 中 必须 注意 : 绝 不 可 
单 凭 该 方法 对 被 试 进行 分 类 。CPA 归根 到 底 只 是 一 种 统计 学 方法 ， 它 对 于 被 试 的 分 类 一 一 
即 “是 否 存在 异常 作答 ”一 一 只 是 一 种 统计 学 推论 , 只 能 作为 一 种 鉴别 异常 反应 被 试 的 辅助 手 
段 。 除 了 CPA 以 外 ， 还 需要 其 他 来 源 的 证 据 支 持 ， 如 座位 次 序 图 表 、 视 频 监 控 、 教 师 评 价 
等 信息 ， 才 可 以 将 某 人 真正 界定 为 异常 反应 。 本 文 介绍 的 CUSUM 与 CPA 一 样 同属 统计 学 
方法 的 范畴 ， 因 此 同 理 。 这 一 点 在 教育 测验 中 尤为 重要 : 仅 通 过 CPA 方法 就 将 某 人 视 为 作 
弊 者 ， 进 而 对 其 作出 处 理 ， 这 种 简易 的 论断 是 既 不 合理 也 不 应 该 的 。 正 如 2013 年 美国 教育 
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部 所 指出 的 : 统计 分 析 是 推论 性 的 ， 不 能 仅 赁 此 下 最 终 定 论 。 因 此 ， 必 须要 正视 CPA 的 局 
限 性 , 不 可 以 过 度 使 用 此 方法 , 它 的 价值 更 多 地 在 于 通过 清洗 异常 数据 来 提高 参数 估计 的 精 
度 ， 从 而 使 研究 结论 更 具 可 靠 性 。 例 如 ，Shao (2016) 依 托 CPA 算法 设法 了 一 种 迭代 程序 来 
修正 加 速 作 答 影响 下 的 参数 估计 : 首先 使 用 原始 数据 估计 参数 ， 并 将 参数 估计 的 结果 用 在 
CPA 中 侦 测 加 速 作 答 被 试 ， 然 后 移 除 加 速 部 分 序列 ， 再 使 用 清理 后 的 数据 重新 估计 参数 ， 
上 述 步骤 反复 进行 ， 直至 满足 终止 规则 。 研究 结 果 表 明 : 这 项 迭代 程序 可 以 较 大 地 提高 参数 
估计 精度 。 并 且 ， 通 过 侦 测 出 各 被 试 的 具体 变 点 位 置 ,测验 管理 者 可 据 此 修正 测验 的 题 数 和 
时 长 ， 以 减少 受 时 间 压 力 影响 在 测验 后 期 出 现 加 速 作答 的 被 试 人 数 (Shao et al., 2016)。 当 前 
CPA 在 心理 与 教育 学 界 比 较 “ 新 ”， 且 国内 心理 与 教育 测量 领域 内 对 CRA 的 研究 还 处 于 一 片 
空白 ， 因 此 未 来 的 研究 方向 较为 广阔 。 现 对 CRA 研究 中 存在 的 一 些 问题 及 未 来 可 能 的 研究 
方向 提供 一 些 建议 ， 供 后 续 研 究 者 参考 。 


6.1 多 变 点 情况 下 异常 反应 侦查 


= 本 文 只 讨论 了 作答 序列 中 存在 一 处 变 点 的 情况 ， 未 对 多 变 点 分 析 进 行 介绍 。 事 实 上 ， 
LO 当前 在 心理 与 教育 测量 学 界 ， 多 变 点 分 析 的 研究 还 相当 少 , 但 现实 中 多 变 点 现象 时 常 出 现 ， 
= 实际 测验 中 可 能 出 现 两 种 或 多 种 效应 出 现在 同一 名 被 试 作 答 过 程 的 现象 , 如 某 被 试 在 测验 初 
O 期 存在 练习 效应 ， 中 期 存在 疲劳 效应 ， 后 期 存在 加 速 作答 。 如 此 一 来 个 体内 能 力 水 平 可 能 会 


V s&s 


发 生 数 次 变化 ,作答 序列 会 存在 多 个 变 点 。 在 心理 与 教育 测量 之 外 的 领域 ， 多 变 点 分 析 的 常 
方法 是 二 值 分 割 法 (binary segmentation, BS; Vostrikova, 1981): 首先 在 一 个 完整 序列 中 找 出 
(= 某 个 最 可 能 的 变 点 , 它 将 该 序列 划分 为 两 个 子 序列 ， 然 后 在 这 两 个 子 序列 中 继续 寻找 变 点 ， 
7 将 子 序列 划分 为 更 小 的 序列 ， 此 步 又 不 断 循 环 ， 直 到 满足 标准 后 终止 ， 如 此 一 来 便 找到 了 多 
个 变 点 。BS 可 以 很 方便 迁移 到 心理 与 教育 测量 学 中 ， 以 深化 多 变 点 分 析 侦 测 异常 反应 的 研 
究 。 在 现今 的 测量 学 研究 与 应 用 中 ,多 变 点 比 单 变 点 可 能 占据 更 重要 的 地 位 ， 某 种 意义 上 而 
言 多 变 点 分 析 的 研究 具有 更 大 的 意义 。 今 后 应 着 眼 于 多 变 点 异常 反应 的 IRT 模型 构建 以 及 指 
标 和 方法 开发 的 一 系列 研究 。 
6.2 结合 反应 时 的 异常 反应 侦查 

当前 对 于 蜡 常 作答 的 侦查 主要 根据 被 试 在 各 题 上 的 得 分 数据 , 然而 仅 任 此 类 数据 会 产生 
较 多 的 判断 失误 。 因 此 , 有 研究 者 建议 异常 反应 侦查 时 可 以 结合 其 他 方面 的 信息 来 增强 检测 
效力 ， 例 如 充分 利用 座位 次 序 图 表 ， 视 频 监 控 和 后 续 面 谈 (Tendeiro & Meijer, 2014) 等 信息 。 
并 且 ， 就 目前 而 言 ， 反 应 时 是 一 种 较 容 易 获 得 且 十 分 有 效 的 信息 ， 基 于 计算 机 的 测验 可 以 很 


好 地 收集 被 试 在 各 题 上 的 反应 时 。 目前 为 止 , 研究 者 开发 了 一 系列 反应 与 反应 时 联合 建 模 的 
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模型 ， 包 括 四 参数 logistic 反应 时 模型 (four-parameter logistic response time model, 4PL-RTM; 


Wang & Hanson, 2005) 和 层级 框架 模型 (hierarchical framework model; van der Linden, 2007; 


Fox & Marianti, 2016) 等 ， 这 些 模型 足以 支持 CPA 的 研究 。Wang 和 Xu (2015) 结 合 被 试 作答 


反应 和 反应 时 数据 建立 了 混合 层级 模型 (mixture hierarchical model)， 对 快速 猜测 行为 (rapid 
guessing behaviour， 即 由 时 间 压 力 或 动机 缺失 导致 的 随机 作答 行为 ) 实 施 侦 测 ， 取 得 了 比较 
好 的 检测 效果 。 此 外 , 存在 加 速 作 答 的 被 试 在 测验 后 期 各 题 上 作答 的 反应 时 会 更 短 (Shao et al., 
2016)。 因 此 ，Shao (2016) 在 研究 中 使 用 基于 反应 时 数据 的 CPA 对 加 速 作答 行为 实施 侦 测 ， 


结果 发 现 : 在 侦 测 结果 中 不 仅 一 型 错 


误 率 得 到 了 良好 控制 , 方法 的 效力 也 很 高 。 这 说 明了 仪 


通过 反应 时 数据 实施 侦查 也 可 以 取得 不 错 的 效果 。 通 过 结合 上 述 信息 ， 可 极 大 提升 CPA 的 


侦查 效力 。 因 此 , 在 实际 应 用 中 可 以 考虑 结合 其 他 来 源 的 有 效 信息 来 提高 侦查 的 准确 


是 一 个 有 价值 的 研究 方向 。 


= 


生 ， 这 


6.3 基于 非 参 数 化 PFS 的 异常 反应 侦查 
当前 研究 者 已 经 开发 出 了 四 类 CPA 的 PFS 指标 : 基于 似 然 比 检验 的 Linas FEF Wald 
检验 的 War、 基 于 得 分 检验 的 Su 和 基于 加 权 残 差 的 Row。 四 类 PFS 都 基于 IRT 构建 ， 同 


属 参 数 化 指标 的 范畴 。 在 CPA 领域 ， 


目前 尚 无 关于 非 参数 化 指标 的 研究 。 非 参数 化 相 较 于 


参数 化 的 方法 更 具 简 洁 性 ， 而 且 茶 些 情况 下 非 参 数 化 会 比 参数 化 指标 表现 得 更 好 。 例 如 ， 


Karabatsos (2003) 对 36 种 传统 PFS 指标 进行 比较 研究 后 发 现 ， 非 参数 化 的 PFS 比 参数 化 的 
侦查 效力 更 高 。 原 因 可 能 在 于 : 计算 参数 化 的 PFS 过 程 中 需要 对 同一 数据 集 使 用 两 次 一 一 


第 一 次 用 于 估计 IRT 参数 ， 第 二 次 则 


运用 这 些 参 数 对 数据 进行 拟 合 ， 即 计算 PFS。 因 此 参数 


会 和 数据 产生 关联 ， 而 非 参 数 化 的 PFS 则 没有 这 种 关系 。 因 此 ， 在 将 来 CPA 的 研究 中 ， 可 
对 非 参数 化 PFS 构建 这 一 方向 多 加 考虑 。 


6.4 多 级 评分 以 及 多 维 测 验 下 的 异常 


反应 侦查 


在 如 今 心理 测量 学 领域 , 多 级 计 分 的 量 表 占据 了 主体 地 位 。 但 是 本 文中 列举 的 各 项 PFS 
中 ’ RA Yu 和 Cheng (2019) 提 出 的 基于 加 权 残 差 的 Rmax 是 建立 在 多 级 计 分 测验 上 的 , 而 且 


向 两 级 计 分 的 指标 转化 也 很 方便 。 因 


此 ， 可 以 考虑 将 现 有 的 PFS 拓展 至 多 级 计 分 ， 以 增加 


这 些 指标 的 适用 范围 ， 此 类 研究 难度 较 低 ， 可 行 性 较 高 (Sinharay, 2016)， 并 且 具 有 较 大 的 应 


由 


价值 。 除 了 将 指标 拓展 至 多 级 计 分 以 外 ， 也 可 将 现 有 的 PFS 向 多 维 测验 进行 拓展 ， 多 维 
量 表 的 开发 是 当前 趋势 所 在 , 例如 在 基于 英文 语言 的 数学 测验 中 , 每 道 题 上 同时 考察 英语 与 


数学 两 个 维度 的 能 力 , 如 果 某 考生 存在 加 速 作答 , 那么 经 过 变 点 之 后 其 英语 和 数学 能 力 都 将 


降低 。 当 前 多 维 项 目 反 应 理论 (multidimensional IRT, MIRT) 已 较为 成 熟 ， 可 以 支撑 多 维 异常 
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反应 侦查 研究 的 开展 。 因 此 ， 这 也 是 一 项 具有 可 行 性 和 价值 的 工作 。 
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Change point analysis: A new method to detect aberrant responses in 


psychological and educational testing 


Zhang longfei; Wang xiaowen; Cai yan; Tu dongbo 
(School of Psychology, Jiangxi Normal University, Nanchang 330022, China) 

Abstract: The change point analysis (CPA), as one of the most widely used methods for statistical 
process control, is introduced to psychological and educational measurement for detection of 
aberrant response patterns in recent years. CPA outperforms the traditional method as follows: In 
addition to detecting aberrant response patterns, it can also pinpoint the locations of change points, 
contributing to efficient cleansing of response data. The method is employed to determine whether 
there is a point so that the complete sequence can be divided into two parts with different 
statistical properties, where person-fit statistics (PFS) is needed for quantifying the difference 
between two sub-sequences. Future researchers should pay more attention to multiple change 
points detection, making full use of other effective information like response time data, 
developing non-parametric indices as well as reforming the exiting person-fit statistics for 
polytomous and multidimensional tests, so as to enhance its applicability and power. 
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